비전 트랜스포머 (Vision Transformers)
Vision Transformer(ViT)는 자연어 처리(NLP) 분야에서 혁신을 일으킨 트랜스포머(Transformer) 아키텍처를 컴퓨터 비전(이미지 인식) 분야에 거의 그대로 도입한 모델이다. 이 모델은 이미지를 픽셀 단위로 처리하는 대신 고정된 크기의 ’패치(patch)’로 잘게 쪼개어 이를 문장 속 단어처럼 순차적인 시퀀스(sequence)로 변환해 입력한다. 기존의 합성곱 신경망(CNN)이 지역적인 특징(local feature) 추출에 강점이 있다면, ViT는 ‘셀프 어텐션(Self-Attention)’ 메커니즘을 통해 이미지 패치들 간의 상호 관계를 파악하여 이미지 전체의 전역적인 문맥(global context)을 학습하는 데 탁월하다. 다만, CNN과 달리 이미지의 지역적 패턴에 대한 가정(Inductive Bias)이 적기 때문에 일반화 성능을 높이기 위해서는 훨씬 더 방대한 양의 학습 데이터가 필요하다는 특징이 있다.
- 트랜스포머 기반 아키텍처의 시각적 토큰화 (2020-10-22)
- 비전 트랜스포머 (Vision Transformer, ViT, 2020-10-22)
- TimeSformer (Is Space-Time Attention All You Need for Video Understanding?) 순수 트랜스포머 기반의 시공간 비디오 이해 모델 (2021-02-09)
- ViViT (비디오 비전 트랜스포머, Video Vision Transformer, 2021-03-29)
- 컴퓨터 비전 CrossFormer (2021-07-31)
- MobileViT 경량화, 범용성, 모바일 친화적 비전 트랜스포머 (2021-10-05)
- CrossFormer (3D 인간 포즈 추정, Cross-Spatio-Temporal Transformer, 2022-03-24)
- DCT ViT 및 압축 비디오 트랜스포머 기술